凸优化：范数逼近的基本原理

想象你是一名裁缝，正试图将一件标准西装（矩阵 $A$ 的列空间）适配给一位体型独特的客户（向量 $b$）。无论你如何调整袖子或腰围（系数 $x$），这件衣服都无法完全贴合。你正在寻找一种“最佳”折衷方案——一种 范数逼近 的范数逼近方法，它能最小化每条接缝处的张力或“残差”。

数学框架

核心目标是找到一个向量 $x \in \mathbb{R}^n$，使得线性组合 $Ax = x_1a_1 + \dots + x_na_n$ 尽可能接近 $b$。这通常被称为 将 $b$ 回归到回归变量上 （即矩阵 $A$ 的列）。

我们关注的是残差向量 $r = Ax - b$。在实际应用中，我们通常假设这是一个 超定系统 其中 $m > n$。为什么？因为当 $m = n$ 且 $A$ 可逆时，最优解就是 $A^{-1}b$，误差为零——这对优化问题而言是一个平凡情况。

🎯 核心原则

范数逼近问题（6.1）是一个 凸问题 并且保证可解。总存在至少一个最优解 $\hat{x}$，它能最小化目标与可实现子空间之间的距离。

标准变体

根据我们希望惩罚的误差类型，我们选择不同的范数：

1. 最小二乘法（$\ell_2$ 范数）

最常用的方法。它最小化残差平方和：$\|Ax - b\|_2^2$。对大异常值敏感，但可通过正规方程获得解析解。

2. 切比雪夫/极小极大（$\ell_\infty$ 范数）

最小化最大绝对残差 $\max_i |r_i|$。当每个测量值都必须严格控制在容差范围内时使用。可通过以下线性规划（LP）求解：

最小化 $t$
约束条件为 $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

3. 绝对残差之和（$\ell_1$ 范数）

最小化 $\sum |r_i|$。该方法对异常值具有鲁棒性，因为它不会对误差进行平方处理。也可通过线性规划（LP）求解：

最小化 $\mathbf{1}^T t$
约束条件为 $-t \preceq Ax - b \preceq t$

估计背景

在许多工程领域，我们假设真实状态 $x$ 被噪声所掩盖：$y = Ax + v$。我们的目标是找到一个估计值 $\hat{x} = \text{argmin}_z \|Az - y\|$。通过选择范数，我们实际上是在对噪声 $v$ 的统计分布做出假设。

最小化 $\|u - b\|$，约束条件为 $u \in \mathcal{A}$（其中 $\mathcal{A} = \text{Range}(A)$）

问题 1

在范数逼近的背景下，为什么我们通常假设 $m > n$？

因为如果 $m = n$，解就是平凡的 $x = A^{-1}b$，残差为零。

为了确保问题保持非凸性。

因为 $\ell_1$ 范数要求变量多于约束才能求解。

为了保证矩阵 $A$ 总是奇异的。

问题 2

哪一个线性规划（LP）公式正确地表示了切比雪夫（极小极大）逼近问题？

最小化 $t$，约束条件为 $-t\mathbf{1} \preceq Ax - b \preceq t\mathbf{1}$

最小化 $\mathbf{1}^T t$，约束条件为 $-t \preceq Ax - b \preceq t$

最小化 $\|Ax - b\|_2$，约束条件为 $x \succeq 0$

最小化 $t$，约束条件为 $Ax - b = t$

问题 3

你正在校准一个传感器，希望确保没有单个测量值偏离模型超过固定量。应该使用哪种范数？

$L^\infty$（切比雪夫）

$L^1$（绝对残差之和）

$L^2$（最小二乘法）

弗罗贝尼乌斯范数

问题 4

关于范数逼近问题（6.1）的可解性，以下哪项是正确的？

它总是可解且凸的。

只有当矩阵 $A$ 对称时，它才是可解的。

如果使用 $L^1$ 范数，则它是非凸的。

如果系统是超定的，则它无解。

问题 5

在表达式 $y = Ax + v$ 中，如果 $v$ 表示拉普拉斯噪声（其尾部比高斯噪声更厚），哪种逼近范数在统计上更具鲁棒性？

$L^1$（绝对残差之和）

$L^2$（最小二乘法）

$L^\infty$（切比雪夫）

$L^0$ 伪范数